1
เกินบอทแชท: สถาปัตยกรรมของผู้กระทำอัตโนมัติ
EvoClass-AI005Lecture 5
00:00

ยินดีต้อนรับสู่การเปลี่ยนผ่านจากพฤติกรรมการใช้ประโยชน์จากปัญญาประดิษฐ์อย่างเฉื่อยชา สู่การควบคุมและจัดการปัญญาประดิษฐ์อย่างมีพลัง ในการเข้าใจ 'พนักงานดิจิทัล' เราจำเป็นต้องแยกแยะระหว่างบอทแชทมาตรฐานกับ ผู้กระทำอัตโนมัติโดยที่การโต้ตอบแบบเดิมของโมเดลภาษาขนาดใหญ่ (LLM) เป็นเชิงตอบสนอง — พึ่งพาโครงสร้างง่าย ๆ ว่า ข้อมูลนำเข้า → ผลลัพธ์ แต่ผู้กระทำอัตโนมัติจะทำงานภายในวงจรซ้ำซ้อนที่กำหนดโดยสูตร:

$$ \text{เป้าหมาย} + \text{เหตุผล} + \text{เครื่องมือ} = \text{ผลลัพธ์} $$

1. โมเดลภาษาขนาดใหญ่ (LLM) ที่เป็นหน่วยประมวลผลหลัก

ในสถาปัตยกรรมนี้ โมเดลภาษาขนาดใหญ่ (LLM) ทำหน้าที่เป็น 'สมอง' หรือหน่วยประมวลผลกลาง มีความสามารถทางตรรกะและความสามารถด้านภาษา แต่เพื่อให้มันทำงานได้เหมือนพนักงาน ต้องอาศัยกรอบการทำงานที่รองรับการคงอยู่และการดำเนินการ

2. สามเสาหลักของสถาปัตยกรรมผู้กระทำ

เพื่อให้สมองนี้มีประสิทธิภาพ ต้องอาศัยสามเสาหลัก:

  • การวางแผน: การแบ่งเป้าหมายที่ซับซ้อนออกเป็นงานย่อย
  • ความจำ: การเก็บข้อมูลบริบทจากการโต้ตอบครั้งก่อน และข้อมูลระยะยาว
  • การกระทำ: การดำเนินงานในโลกดิจิทัลผ่านเครื่องมือ

เราไม่ได้แค่สั่งงานเท่านั้น แต่เรากำลังออกแบบระบบให้สามารถรับรู้สภาพแวดล้อมและปรับปรุงตนเองเมื่อพบข้อผิดพลาด

Agent Logic Structure
Question 1
What represents the "Brain" of an autonomous agent in this architecture?
The Database
The Large Language Model (LLM)
The User Interface
Question 2
Which pillar is responsible for breaking down a complex project into manageable sub-tasks?
Action
Memory
Planning
Challenge: Identifying Agentic Behavior
Analyze the workflow of an autonomous agent.
You ask an AI to "Find three flights to New York, pick the cheapest, and draft an email to my manager."
Step 1
Identify the "Reasoning" step in this workflow.
Solution:
The reasoning occurs when the agent compares the prices of the three flights and selects the lowest one based on the user's criteria.